به نقل از آی ای اسپکتروم «اوپنایآی» (OpenAI) به «چت جیپیتی» (ChatGPT) تواناییهای جدید و قدرتمندی را ارائه میدهد که فراتر از متن است. این میتواند داستانهای قبل از خواب را با صدای هوش مصنوعی خود تعریف کند، اشیاء را در عکسها شناسایی کند و به ضبطهای صوتی پاسخ دهد. این قابلیتها نشاندهنده بعد بزرگی در هوش مصنوعی است؛ مدلهای چندوجهی.
«لینکسی جیم فان»، دانشمند ارشد تحقیقات هوش مصنوعی در «انویدیا» (Nvidia) میگوید: چندوجهی نسل بعدی این مدلهای بزرگ است که میتواند نه تنها متن، بلکه تصاویر، صدا، ویدئو و حتی سایر روشها را پردازش کند.
چت جیپیتی قدرت چشم و گوش دریافت میکند!
ارتقاء چت جیپیتی نمونهای قابلتوجه از یک سیستم هوش مصنوعی چندوجهی است. به جای استفاده از یک مدل هوش مصنوعی که برای کار با یک نوع ورودی طراحی شده، مانند یک مدل زبان بزرگ (LLM) یا مدل گفتار به صدا، چندین مدل با هم کار میکنند تا ابزار هوش مصنوعی منسجمتری ایجاد کنند. آینده هوش مصنوعی مولد فوقالعاده است. این برای کارکنان دانش، خلاقان و کاربران نهایی اتفاق خواهد افتاد.
اوپنایآی سه ویژگی چندوجهی خاص را ارائه میدهد. کاربران میتوانند ربات چت را با تصاویر یا صدا درخواست کنند و همچنین پاسخها را با یکی از پنج صدای تولید شده توسط هوش مصنوعی دریافت کنند. ورودی تصویر در همه پلتفرمها در دسترس است، در حالی که صدا به برنامه چت جیپیتی برای اندروید و آیاواس محدود میشود.
چت جیپیتی با متنی پاسخ میدهد که بهترین ابزار برای کار و نحوه استفاده از آن را توصیف میکند. این ویژگیهای چندوجهی کاملاً جدید نیستند. جیپیتی-۴ با درک درخواستهای تصویر در مارس ۲۰۲۳ راهاندازی شد که توسط برخی از شرکای اوپنایآی از جمله «بینگ چت» (Bing Chat) مایکروسافت به اجرا درآمد. اما استفاده از این ویژگیها نیازمند دسترسی «ایپیآی» (API) بود، بنابراین بهطور کلی به شرکا و توسعهدهندگان محفوظ بود.
ویژگیهای چندوجهی جیپیتی-۴ در تابستان ۲۰۲۳ در بینگ چت ظاهر شد. اکنون در دسترس همه افرادی هستند که مایل به پرداخت ۲۰ دلار در ماه برای اشتراک «چت جیپیتی پلاس» (ChatGPT Plus) هستند. ترکیب آنها با رابط دوستانه چت جیپیتی یک مزیت دیگر است. ورودی تصویر به سادگی باز کردن برنامه و ضربه زدن روی نماد برای گرفتن عکس است.
سادگی؛ قاتل هوش مصنوعی چندوجهی
مدلهای فعلی هوش مصنوعی برای تصاویر، فیلمها و صدا قابلتوجه هستند، اما یافتن مدل مناسب برای هر کار میتواند زمانبر باشد و انتقال دادهها بین مدلها کار طاقتفرسایی است. هوش مصنوعی چندوجهی این مشکلات را از بین میبرد.
کاربر میتواند با رسانههای مختلف از عامل هوش مصنوعی درخواست کند، سپس بهطور یکپارچه بین تصاویر، متن و پیامهای صوتی در همان مکالمه جابهجا شود.
«کایل شانون»، بنیانگذار و مدیرعامل پلتفرم ویدئویی هوش مصنوعی «استوریوین» میگوید: این به آینده این ابزارها اشاره میکند، جایی که میتوانند تقریباً هر چیزی را که در لحظه میخواهیم به ما ارائه دهند.
آینده هوش مصنوعی مولد فوقالعاده است. این برای کارکنان دانش، خلاقان و کاربران نهایی اتفاق خواهد افتاد. پشتیبانی چت جیپیتی از تصویر و صدا فقط چشیدن امکاناتی است که در راه است.
فان میگوید: در حال حاضر هیچ مدل خوبی برای آن وجود ندارد، در اصل شما میتوانید دادههای سهبعدی مانند دادههای بومی دیجیتال را به آن بدهید و میتواند تصاویر، ویدئوها و حتی عملکردها را خروجی دهید. من در انویدیا در مورد هوش مصنوعی تحقیق میکنم و روباتیک و مدلهای چندوجهی برای این تلاشها حیاتی هستند.
ساخت هوش مصنوعی چندوجهی با چالشهای زیادی روبهرو است
ورودی تصویر و صدا شروع طبیعی برای قابلیتهای چندوجهی چت جیپیتی است. این یک برنامه رو به روی کاربر است و این دو مورد از رایجترین شکلهای دادهای هستند که ممکن است کاربر بخواهد از آن استفاده کند. اما دلیلی وجود ندارد که یک مدل هوش مصنوعی نتواند برای پرداختن به سایر اشکال داده آموزش ببیند، چه صفحه گسترده اکسل، یک مدل سهبعدی یا یک عکس با دادههای عمقی.
این بدان معنا نیست که آسان است. سازمانهایی که به دنبال ساخت هوش مصنوعی چندوجهی هستند با چالشهای زیادی روبهرو هستند. بزرگترین بحث در مورد حجم عظیمی از دادههای موردنیاز برای آموزش فهرستی از مدلهای هوش مصنوعی باشد.
فن میگوید: من فکر میکنم مدلهای چندوجهی تقریباً مشابه مدلهای زبان بزرگ کنونی خواهند بود. این سرمایه است و احتمالاً برای چندوجهی حتی بدتر است، زیرا در نظر بگیرید که چه مقدار داده در تصاویر و ویدئوها وجود دارد. به نظر میرسد که این به چت جیپیتی و دیگر استارتآپهای هوش مصنوعی مانند «آنتروپیک» (Anthropic) که اخیراً قراردادی به ارزش ۴ میلیارد با آمازون منعقد کرده، برتری میدهد. اما برای شمارش سازمانهای کوچکتر خیلی زود است.
به گفته فان تحقیقات درزمینهٔ هوش مصنوعی چندوجهی نسبت به تحقیقات درزمینهٔ مدلهای زبانی از بلوغ کمتری برخوردار است و این فضا را برای محققان برای یافتن تکنیکهای جدید باز میکند.
شانون موافق است و انتظار نوآوری از همه طرف دارد. وی میگوید: من فکر میکنم همیشه یک آونگ بین ابزارهای عمومی هوش مصنوعی و ابزارهای تخصصی وجود خواهد داشت. آنچه تغییر میکند این است که اکنون ما امکان ابزارهای واقعاً عمومی را داریم. تخصص میتواند یک انتخاب باشد تا یک الزام.
نظر شما